Loading...
机构名称:
¥ 1.0

基于声学和语言提示的语言模型(LM)方法,例如Vall-e,在零击音频产生的领域取得了显着的进步。但是,iS iSTing方法仍然存在一些局限性:1)由于音频和音素令牌之间有限的对齐约束,导致输出综合语音的重复,换位和遗漏; 2)使用自动化语言模型对综合语音进行细粒度控制的挑战; 3)由于基于AR的编码的性质,尤其是在贪婪策略下,无限的沉默产生。为了减轻这些问题,我们提出了Ella-V 1,这是一个简单但有效的基于LM的零击文本对语音(TTS)框架,可以在音素级别对合成音频进行细性的控制。ELLA-V的钥匙是声学和音素令牌的序列序列,在该序列中,音素令牌出现在相应的声音令牌之前。表现出的发现表明,我们的模型在准确性方面执行了VALL-E,并使用基于贪婪和采样的解码策略提供了更稳定的结果。Ella-V的代码将是开源的,以清理2。音频样本可在https://ereboas.github.io/ellav/上找到。

arxiv:2401.07333v1 [cs.cl] 2024年1月14日

arxiv:2401.07333v1 [cs.cl] 2024年1月14日PDF文件第1页

arxiv:2401.07333v1 [cs.cl] 2024年1月14日PDF文件第2页

arxiv:2401.07333v1 [cs.cl] 2024年1月14日PDF文件第3页

arxiv:2401.07333v1 [cs.cl] 2024年1月14日PDF文件第4页

arxiv:2401.07333v1 [cs.cl] 2024年1月14日PDF文件第5页

相关文件推荐